PDFPlumber使用入门 | 您所在的位置:网站首页 › python读取pdf内容 乱码 › PDFPlumber使用入门 |
文章目录
背景
环境
教程开始
应用场景
安装
命令行使用
可选参数
Python包
简单样例
读取PDF
pdfplumber.PDF类
pdfplumber.Page类
对象(Object)
`chars` / `annos` 属性
`line` 属性
`rect` 属性
`curve` 属性
可视化调试
使用`.to_image()`创建`PageImage`
基础`PageImage`方法
绘图方法
表格抽取
表格抽取方法
表格抽取设置
表格抽取策略
注意
引用
背景
最近需要一个工具来解析PDF文件,获取其文本内容、标题、表格等,在GitHub上发现了这个神仙工具,发现用起来还挺方便的。在这里做一个简单的介绍,帮助一些想入门的英文不好的 同学。 环境macOS 10.14 PDFPlubmer v0.5.21 python>=3.5 教程开始首先附上GitHub链接:https://github.com/jsvine/pdfplumber 应用场景获取PDF中的每个文本字符、矩形和行的详细信息,以及可以进行表格提取和可视化调试。主要应用于机器生成的PDF上,而非扫描的pdf文档。 安装可以直接使用pip进行python包的安装,执行指令: pip install pdfplumber之后运行python,若能成功导入该包即安装成功。 $ python3 Python 3.6.5 (default, Jun 17 2018, 12:13:06) [GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pdfplumber >>> # 安装成功 命令行使用这里提供一个官方的简单的使用样例 $ curl "https://cdn.rawgit.com/jsvine/pdfplumber/master/examples/pdfs/background-checks.pdf" > background-checks.pdf $ pdfplumber background-checks.csv执行完成后即可将一个pdf中的各种详细信息,包含每一个字符、线、表格等,导出到一个csv文件中。 可选参数 参数 描述 --format [format] csv or json。json格式返回更多信息; 它包含PDF级别的元数据(metadata)和每个页面的高度/宽度信息。 --pages [list of pages] 一个以空格分隔,以1索引开头的页面或带连字符的页面范围的列表。 例如1,11-15,它将返回第1、11、12、13、14和15页的数据。 --types [list of object types to extract] 选择为char、anno、line、curve、rect、rect_edge。 默认为char,anno,line,curve,rect。 Python包 简单样例 import pdfplumber with pdfplumber.open("path/to/file.pdf") as pdf: first_page = pdf.pages[0] print(first_page.chars[0]) 读取PDFpdfplumber提供了两种读取pdf的方式: pdfplumber.open("path/to/file.pdf") pdfplumber.load(file_like_object)这两种方法都返回pdfplumber.PDF类的实例(instance)。 |
CopyRight 2018-2019 实验室设备网 版权所有 |